Introducción

Este documento contiene las instrucciones para el taller R para los de Letras ofrecido por la Facultad de Filosofía y Letras de la Universidad de Valladolid.

El objetivo de este taller es introducirse en el uso de R como herramienta para analizar datos textuales, pero ofrece información valiosa para cualquiera que quiera introducirse en R.

Este taller está dirigido a principiantes con el objetivo de mostrar cómo configurar una sesión de R en RStudio, cómo configurar proyectos en R y cómo realizar operaciones básicas usando R.

Objetivos

Los objetivos de este taller son:

  • Instalar R
  • Instalar RStudio
  • Manejarse en R y RStudio
  • Cómo crear y trabajar con proyectos en R
  • Dónde buscar ayuda y aprender más acerca de R
  • Comprender los principios básicos al trabajar con datos: cargarlos, guardarlos, trabajar con tablas, crear un gráfico sencillo.

Audiencia

Este taller es para principiantes. No es necesario saber nada de R, ni de lenguajes de programación.

Se ruega que todos los participantes traigan su propio ordenador con el software ya instalado. Al usar su propio ordenador, nos aseguramos de que tras el taller podrán continuar usando lo que se ha aprendido una vez haya finalizado el taller.

Instalar R y RStudio

Durante el taller, se usará RSudio. RStudio es una excelente manera de manejar el lenguaje de programación R. Para usarlo, debes instalar tanto R como RStudio.

Por favor, sigue las instrucciones que hay a continuación para instalar R y RStudio y hazlo antes de acudir al taller. Asegúrate de que el software funciona como debe una vez instalado. ¡Te diremos cómo hacerlo!

  • Tiene un ordenador con Windows?

    • Descarga R. Este enlace lo desacargará
    • Ejecuta el fichero .exe que acabas de descargar (se encuentra en la carpeta Descargas), y sigue sus instrucciones
    • Ahora descarga RStudio. Este enlace lo descargará
    • Cuando se haya descargado, ejecuta el fichero R-STUDIO-2024.12.0-467.exe (estará en la carpeta Descargas), y sigue las instrucciones
    • Una vez haya finalizado la instalación, abre Rstudio y asegúrate de que funciona y de que no hay mensajes de error.
  • Tienes un Mac?

    • Descarga R. Si tienes un ordenador con los chips M1/M2/M3/M4 usa este enlace, pero si tu ordenador tiene un procesador Intel, entonces usa este otro enlace
    • Ejecuta el fichero .pkg que acabas de bajar (estará en la carpeta Descargas), y sigue las instrucciones
    • Ahora descarga RStudio. Este enlace lo descargará
    • Cuando se haya descargado, ejecuta el fichero .dmg (estará en la carpeta Descargas), y sigue las instrucciones
    • Una vez que se haya finalizado la instalación, abre Rstudio y asegúrate de que funciona y de que no haya mensajes de error.

Cuando arranques RStudio, verás que se abre una ventana que se aparece a la de esta imagen (el fondo será blanco y no negro —ya llegará el momento de tunearlo—):

R y RStudio. Lo básico

RStudio es un IDE (Integrated Development Environment), una especie de escritorio que facilita el acceso a R. La gran ventaja de este aplicativo es que se pueden gestionar con gran facilidad los scripts de R, los ficheros y los directorios de los proyectos. Este entorno de trabajo permite editar y ejecutar el código (scripts), ver los resultados y los gráficos que dibuje. Es más, se pueden ver las variables y los objetos que se están ejecutando en la ventana Environment (más, más abajo 👇).

RStudio: Paneles

El escritorio de RStudio divide la pantalla en cuatro ventanas que llaman panes (o paneles):

  1. Editor de ficheros
  2. Environment
  3. Console
  4. Gestion (Gestor de ficheros (Files), Gráfico (plots), Ayuda (help), Visor (_Viewer), Presentación (Presentation) y Librarías (packages).

Los dos más importantes son la Consola (parte inferior, izquierda) y el editor de ficheros (parte superior, izquierda). Los paneles del entorno (Global Environment) y gestión están en la parte de derecha y tienen varias pestañas:

  • Environment (arriba): Presenta todos los objetos, variables, y conjuntos de datos (data sets) que se están usando.
  • History (arriba): Recoge todas las instrucciones ejecutadas recientemente o que están asociadas a un proyecto determinado.
  • Plots (abajo): Cualquier gráfico se imprimirá en ese espacio
  • Help (abajo): Es donde buscar la ayuda de cualquier librería o función.
  • Files (abajo): Muestra los ficheros que hay en el directorio de trabajo. Tienes varias posibilidades (crear nuevos directorios o carpetas (New Folder), crear un nuevo fichero (New File), borrarlo (Delete), renombrarlo (Rename) y otras varias posibilidades en ⚙️ More)

Consola de R (ventana inferior izquierda)

La consola permite ejecutar inemdiatamente cualquier función o instrucción de R. Aquí puedes experimentar con las funciones, o, sencillamente, imprimir los datos para verlos.

Para usarlo hay que escribir la orden tras > y pulsar ⏎ para ejecutar la orden (el código) que se quiera que realice R.


PRIMER EJERCICIO

`

  1. Puedes utilizar R como una sencilla calculadora. Escribe 2+8 en la consola, como te muestro en la imagen que hay a continuación, y pulsa ⏎.

Respuesta
## [1] 10

En esta orden, el signo de adición + es el operador. Los operadores son símbolos que representan algún tipo de acción. R, sin embargo, es muchísimo más que una sencilla calculadora. Para poderle sacar el máximo partido es necesario comprender qué son los objetos, las funciones y los índices (el número que aparece entre corchetes en los resultados que se imprimen en la consola). Aprenderás cómo usarlos según avanzamos.

Por ahora, considera que los objetos son nombres y que las funciones son verbos.

El editor de scripts (arriba a la izquierda)

La ventana del editor solo se abre si se le dice que se abra. Es muy flexible puesto que permite moverte por el texto de un script, y coloreará los diversos componentes de una expresión (orden o comando). Te permite guardar el script, reutilizarlo o corregir los errores sin tener que reescribir todo. La manera de abrir el editor es haciendo clic en File

Ahora haz clic en New File y, por último, en R Script, como te muestro en la siguiente imagen.

Este R Script es donde harás todo el trabajo de programación.

Ejecutar un script

Al contrario que la consola que viste antes, que ejecuta el código inmediatamente, el editor no lo hace tan pronto como se pulsa ⏎ (tan solo pasará a la línea siguiente). Para conseguirlo, hay que situar el cursor en la primera línea de un comando del script, y pulsar simultáneamente CTRL/CMD+⏎ (CTRL en Windows; CMD en Mac).

O se puede seleccionar todo el grupo de líneas de código que se quieren ejecutar y se pulsan, a la vez, CTRL/CMD+⏎.

También se puede utilizar el boton Run que hay en la parte superior derecha del editor. Tanto para ejecutar una sola línea de código como todo un bloque (véase la siguiente imagen).

Comenzamos con R

Esta sección introduce algunos conceptos y procedimientos básicos que te ayudarán a optimizar el flujo de trabajo en R.

Preparando una sesión de R

Al comienzo de una sesión de trabajo, es bueno definir una serie de parámetros básicos. No es obligatorio, ni siquiera necesario, pero puede ser útil a lo largo del trabajo. En la preparación de una sesión de trabajo se pueden establecer una serie de opciones. En nuestro caso

  • queremos que R imprima los números como estamos acostumbrados (que no los presenten con notación científica, es decir, queremos ver 0.007 y no 0.7e-3, o 1000000 y no 1e6))

  • queremos que R muestre un máximo de 100 resultados (si no lo haces, es posible que R se pase un buen rato imprimendo ristras y ristras de números o palabras).

De nuevo, estos preparativos de sesión no son obligatorios ni necesarios, pero pueden ayudar a evitar errores (ya lo verás más abajo).

ATENCIÓN
Siempre que veas una caja gris como la que hay a continiación, selecciona lo que haya en ella, córtalo y pégalo en el editor de RStudio.


# establece opciones
options(stringsAsFactors = F)                    
options(scipen = 999)
options(max.print=100)

Packages

Al usar R, la mayoría de la funciones no están disponibles; es más, ni siquiera están instaladas en tu ordenador. La gran mayoría se encuentran en lo que se llaman packages o librerías.

Lo que has instalado de R es lo más básico (“base R”), trae consigo unas 30 librerías. Pero existen más de 10.000 librarías creadas y mantenidas por usuarios de todo el mundo; puedes saber de ellos y cómo utilizarlas en la red. En cualquier caso, hay un conjunto de librerías que es básico, pero que no está incluido en el base R. Se trata de tidyverse, que incluye ggplot2, una librería para dibujar magníficos gráficos y mapas.

Antes de poder usar una librería, hay que instalarla en el ordenador (con la función install.packages()) y cargar en cada sesión de trabajo (con la función library()) en la que se quiera utilizar. Sin embargo, una librería (o paquete) solo se ha de instalar una vez, y una vez instado solo hay que cargarlo en la sesión de trabajo en la que sea necesario. Cuando se instala un paquete, es posible que se instalen otros varios que le son imprescindibles para funcionar adecuadamente. Cuando vengas al taller, debes tener instalado tidyverse, tidytext, quanteda y tm, de esta manera ahorraremos tiempo y problemas.

Recuerda que has de cargar las librerías en todas aquellas sesiones de R en las que las quieras utilizar. A continuación te muestro qué has de hacer para instalar las librerías tidyverse, tidytext, quanteda y stopwords (que son las que vamos a necesitar a lo largo de este taller). Corta y pega estas líneas de código en el editor de RStudio y ejecútalas (más atrás te conté cómo se hace).

install.packages("tidyverse")
install.packages("tidytext")
install.packages("quanteda")
install.packages("stopwords")

Se estará un buen rato, depende de tu conexión a internet, mostrándote un motón de información en la consola. En la imagen siguiente te muestro algo de lo que podrías ver mientras instalas las librería. Ten en cuenta que esta es de una, y todas las que le son necesarias, que no vas a necesitar por ahora. Al final te informa de dónde ha guardado las librerías.

Para cargar los paquetes que has instalado, utiliza la función library, cuyo argumento, que se encierra entre los paréntesis, es el nombre de la librería.

library(tidyverse)
library(tidytext)
library(quanteda)
library(stopwords)

La sección de preparación de la sesión de trabajo de cualquier script de R debe indicar, y cargar, todas las librerías que se van a utilizar, puede ahorrarte algún que otro quebradero de cabeza.

Los bloques de código que sirven para instalar y cargar las librerías que necesitarás deberían tener el mismo aspecto que lo que hay en la siguiente imagen:

Las líneas que comienzan con # y que están impresas en azul (a ti te aparecerán en verde) son comentarios. Son muy útiles para recordarte qué es lo que una línea o conjunto de líneas de código hace. (Las línea onduladas que ves no quieren decir nada, es algo del corrector ortográfico de Rstudio, que desconoce el español. No debe preocuparte.)

Fíjate que justo encima de la primera línea hay un triágulo amarillo. Es un aviso que me advierte de que el código, el script que tengo en el editor hace uso de una librería, llamada tm, que no tengo instalada. Me facilita el trabajo al recordarme que no la tengo aún en mi sistema y me da la posibilidad de instalarla con un sencillo clic.

Conseguir ayuda

Cuando trabajes con R te encontrarás problemas y te enfrentarás con retos que no sabrás cómo resolver. Una cosa excelente de R es que hay varias maneras para obtener ayuda o localizar información acerca de los problemas con los que te puedas tropezar.

Buscar la ayuda dentro de R

Para acceder a la ayuda sobre las funciones que hay en cada librería, qué argumentos deben incluirse en una función o cómo usarlas, puedes usar la instrucción help() o sencillamente teclear una ? antes del nombre de la librería o función de las que quieres saber más. Si ejecutas cualquiera de estas dos instrucciones en la consola, la respuesta aparecerá en la pestaña Help del panel inferior derecho.

help(library) 
?library

Tanto R como RStudio tienen otras fuentes “oficiales” de ayuda:

Buscar ayuda en la red

Otra de las grandes ventajas de R es que puedes encontrar la solución a tus preguntas y problemas en la red. R-bloggers y Stackoverflow son sitios magníficos para localizar trucos y ayuda (a veces puede parecer que la han escrito marcianos).


Desde el aparición de la IA generativa del tipo ChatGPT o Copilot, se puede recurrir a ella para que te ayude a solucionar un problema en un script. Al reescibir partes del código de este taller, recuperé un script que me dio un error y no sabía cuál era. Había escrito ese código hace varios años y no lo documenté adecuadamente con #. Copilot, en segundos, me dijo dónde estaba el error. ¡Había olvidado cargar una librería!


NOTE
Este R Notebook se basa en tutoriales de Ladal, Programming Historian y CuentaPalabras.
A los interesados en la lingüística y cómo analizarla con la ayuda de R, les recomiendo vivamente los tutoriales de Ladal.


Financiado por la AEI/10.13039/501100011033